HARVE: Edición de Vector de Recompensa para Robustez ante Hacking Descubre HARVE, un método sin entrenamiento que edita el vector de recompensa para eliminar el reward hacking en modelos de lenguaje. Mejora robustez sin perder capacidad. 2026-06-03 · 2 min